Introdução
Os dados são provenientes de coortes hospitalares de pacientes portadores de HIV. A primeira coorte é constituída dos pacientes portadores de HIV atendidos entre 1986 e 2000 no Instituto de Pesquisa Clínica Evandro Chagas (Ipec/Fiocruz). Dessa coorte, obteve-se uma amostra de 193 indivíduos que foram diagnosticados como portadores de Aids (critério CDC 1993) durante o período de acompanhamento.
Dicionário de variáveis
Para conhecermos as informações contidas na coorte em estudo, abaixo segue a lista de variáveis e suas respectivas descrições. Note que o banco de dados possui 15 variáveis das quais, temos: id, ini, fim, tempo, status, sexo, escola, idade, risco, acompan, obito, anotrat, tratam, doenca, propcp.
| Variável | Descrição |
|---|---|
| id | Identificação do paciente |
| ini | Data do diagnóstico da Aids (em dias) |
| fim | Data do óbito (ou perda do paciente) |
| tempo | Dias de sobrevivência do diagnóstico até o óbito |
| status |
0 = censura 1 = óbito |
| sexo |
F = feminino M = masculino |
| escola |
0 = sem escolaridade 1 = ensino fundamental 2 = ensino médio 3 = ensino superior |
| idade | Idade na data do diagnóstico de Aids (20 a 68 anos) |
| risco |
0 = homossexual masculino 1 = usuário de drogas injetáveis 2 = transfusão 3 = contato sexual com HIV+ 5 = hétero c/múltiplos parceiros 6 = dois fatores de risco |
| acompan |
Acompanhamento: 0 = ambulatorial/hospital-dia 1 = internação posterior 2 = internação imediata |
| obito |
S = óbito N = não óbito I = ignorado |
| anotrat |
Ano do início do tratamento (1990 a 2000), sendo 9 = sem tratamento |
| tratam |
Terapia antirretroviral: 0 = nenhum 1 = mono 2 = combinada 3 = potente |
| doenca |
De apresentação: 1 = pcp 2 = pcp pulmonar 3 = pcp disseminada 4 = toxoplasmose 5 = sarcoma 7 = outra doença 8 = candidíase 9 = duas doenças 10 = herpes 99 = definido por cd4 |
| propcp |
Profilaxia para pneumocistis: 0 = sem profilaxia 2 = primária 3 = secundária 4 = ambas |
Desta forma, podemos então visualizar previamente os dados:
Observa-se que o paciente 1 é do sexo masculino, tem 34 anos e foi acompanhado por 852 dias até a data do seu óbito.
Conforme podemos observar, existem alguns dados faltantes na base de dados. Também percebe-se que algumas informações precisam ser manipuladas conforme os objetivos do estudo. Segundo os autores,
- Na variável
doençao 9 significa duas doenças definidoras e 99 significa que o caso foi definido por CD4, por isso NÃO devem ser alterados.- Na variável
anotrat9 indica a ausência de tratamento (paciente morre antes dos antirretrovirais) e não missing.
Portanto, seguindo as observações mencionadas anteriormente, fez-se a
substituição das informações ignoradas codificadas com 9/99
ou I por NA.
Outra parte importante na preparação dos dados consistiu em identificar se a classificação estava correta. Assim, identificamos que algumas variáveis estavam classificadas como numéricas em vez de categóricas, fez-se então alterações nos dados conforme codificação correta das variáveis, obtendo-se os seguintes resultados:
Rows: 193
Columns: 15
$ id <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18,~
$ ini <int> 1243, 2800, 1250, 1915, 2653, 3, 36, 1, 544, 71, 946, 802, 266~
$ fim <int> 2095, 2923, 2395, 4670, 4770, 332, 96, 152, 2107, 1318, 1030, ~
$ tempo <int> 852, 123, 1145, 2755, 2117, 329, 60, 151, 1563, 1247, 84, 214,~
$ status <int> 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0,~
$ sexo <fct> M, M, M, M, M, M, M, M, M, M, M, M, M, M, M, M, M, M, M, M, M,~
$ escola <fct> 3, 2, NA, NA, NA, NA, NA, 0, 2, 2, 1, 2, NA, NA, 1, 3, 2, 1, 2~
$ idade <int> 34, 38, 32, 43, 40, 34, 27, 22, 44, 23, 40, 33, 41, 35, 45, 35~
$ risco <fct> 0, 6, 0, 6, 0, 0, 0, 6, NA, 0, 0, 0, NA, 1, 0, 0, 0, 0, 0, 0, ~
$ acompan <fct> 1, 1, 1, 0, 1, 1, 2, 2, 0, 2, 1, 1, 1, 1, 2, 0, 1, 1, 1, 0, 1,~
$ obito <fct> S, S, S, N, N, NA, S, S, S, S, S, S, NA, S, S, S, S, S, S, S, ~
$ anotrat <int> 1991, NA, 1992, 1992, 1992, NA, NA, NA, NA, NA, NA, NA, NA, 19~
$ tratam <fct> 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0,~
$ doenca <fct> 4, 7, 3, 10, 5, 7, 7, 3, 10, 3, 3, 3, 4, 1, 5, 7, 99, 99, 10, ~
$ propcp <fct> 3, 4, 4, 4, 4, 0, 0, 0, 0, 4, 0, 4, 0, 4, 2, 4, 4, 4, 0, 4, 0,~
Com isso, podemos expressar a formulação no formato clássico e de contagem no contexto da análise de sobrevivência:
- No formato clássico, será:
[1] 852 123 1145 2755+ 2117+ 329+ 60 151 1563 1247 84 214
[13] 25+ 1348 158 555 408 1116 998 1125 944+ 54 151 855
[25] 116 80+ 1757+ 194 183 37 237+ 1506 168+ 134 803+ 18
[37] 371 173 688 163 3178+ 29 50+ 887 516 645 310 204
[49] 1344+ 1261 285 83 150 1307+ 1076+ 1226 865+ 811 2898 80
[61] 967 618 235 2236+ 152 892 81+ 1085 1073+ 1615+ 35 290
[73] 1780+ 3228+ 52 733 3213+ 1983 2304+ 572 21 1272+ 1646+ 304
[85] 418 854 2973+ 40 850 1139 323 1507+ 2717+ 1735+ 388+ 145
[97] 905 927 1027+ 631 2495+ 1331+ 623 2568+ 2013+ 721 1952+ 397
[109] 254 1630+ 1523+ 146+ 108 1835+ 499 333 202+ 2437+ 1015 2138+
[121] 22 2090+ 179 2439+ 1063+ 85+ 343+ 2215+ 259 2258+ 1371 39
[133] 2371+ 975+ 952 2492+ 1478+ 295+ 992 1011+ 644 426 537+ 1454+
[145] 1869+ 714+ 1310+ 2084+ 1918+ 1649+ 290+ 1685+ 1348+ 652+ 1384+ 1471+
[157] 1512+ 378+ 1352+ 419 1426+ 1488+ 1315+ 643+ 1197+ 1343+ 1176+ 944
[169] 340 881+ 915+ 948+ 985+ 1242+ 955+ 987+ 899+ 1056+ 775 785+
[181] 731+ 16 680+ 21+ 444+ 524+ 217+ 440+ 470+ 390+ 344+ 578+
[193] 504+
- No formato de processo de contagem:
[1] (1243,2095] (2800,2923] (1250,2395] (1915,4670+] (2653,4770+]
[6] ( 3, 332+] ( 36, 96] ( 1, 152] ( 544,2107] ( 71,1318]
[11] ( 946,1030] ( 802,1016] ( 266, 291+] (1544,2892] ( 57, 215]
[16] (1270,1825] (2753,3161] ( 940,2056] ( 393,1391] (1000,2125]
[21] ( 238,1182+] ( 423, 477] ( 206, 357] ( 480,1335] ( 226, 342]
[26] ( 249, 329+] (3052,4809+] (1802,1996] (1395,1578] ( 354, 391]
[31] ( 493, 730+] (1113,2619] ( 638, 806+] ( 655, 789] (1189,1992+]
[36] ( 943, 961] (1715,2086] ( 792, 965] (1037,1725] ( 820, 983]
[41] ( 884,4062+] (2262,2291] (1121,1171+] (1131,2018] ( 878,1394]
[46] (1316,1961] (1107,1417] (1190,1394] ( 393,1737+] (1274,2535]
[51] (1172,1457] (2360,2443] (2074,2224] (1019,2326+] ( 605,1681+]
[56] (1915,3141] (3948,4813+] (1314,2125] (1502,4400] (1347,1427]
[61] (1379,2346] (2352,2970] (2625,2860] (2586,4822+] (1406,1558]
[66] (1466,2358] (3314,3395+] (3413,4498] (3712,4785+] (3207,4822+]
[71] (1592,1627] (1537,1827] (3018,4798+] (1555,4783+] (1541,1593]
[76] (1589,2322] (1609,4822+] (1682,3665] (2465,4769+] (1243,1815]
[81] (1667,1688] (1605,2877+] (3157,4803+] (2066,2370] (1929,2347]
[86] (2216,3070] (1809,4782+] (1670,1710] (1983,2833] (2883,4022]
[91] (1766,2089] (3313,4820+] (1977,4694+] (3087,4822+] (2286,2674+]
[96] (1877,2022] (1852,2757] (1549,2476] (3795,4822+] (2475,3106]
[101] (2310,4805+] (2870,4201+] (1935,2558] (2199,4767+] (2800,4813+]
[106] (2990,3711] (2857,4809+] (3586,3983] (2143,2397] (3124,4754+]
[111] (3276,4799+] (2208,2354+] (2209,2317] (2976,4811+] (2626,3125]
[116] (3838,4171] (2314,2516+] (2311,4748+] (2280,3295] (2684,4822+]
[121] (2454,2476] (2713,4803+] (2311,2490] (2370,4809+] (3756,4819+]
[126] (2565,2650+] (2599,2942+] (2553,4768+] (2601,2860] (2553,4811+]
[131] (2726,4097] (2739,2778] (2447,4818+] (3830,4805+] (2429,3381]
[136] (2311,4803+] (3299,4777+] (4510,4805+] (2384,3376] (3749,4760+]
[141] (2676,3320] (2985,3411] (4192,4729+] (3159,4613+] (2921,4790+]
[146] (4078,4792+] (2934,4244+] (2645,4729+] (2857,4775+] (3173,4822+]
[151] (4509,4799+] (3082,4767+] (3465,4813+] (3188,3840+] (3271,4655+]
[156] (3276,4747+] (3287,4799+] (4439,4817+] (3446,4798+] (3305,3724]
[161] (3391,4817+] (3307,4795+] (3425,4740+] (4117,4760+] (3612,4809+]
[166] (3479,4822+] (3572,4748+] (3796,4740] (3527,3867] (3921,4802+]
[171] (3798,4713+] (3808,4756+] (3772,4757+] (3557,4799+] (3867,4822+]
[176] (3594,4581+] (3923,4822+] (3733,4789+] (4019,4794] (4033,4818+]
[181] (4040,4771+] (4053,4069] (4137,4817+] (4208,4229+] (4362,4806+]
[186] (4279,4803+] (4593,4810+] (4320,4760+] (4343,4813+] (4419,4809+]
[191] (4406,4750+] (4199,4777+] (4301,4805+]
Veja que, observando-se as saídas nos dois formatos, se formos analisar o último paciente (o 193º), podemos inferir algumas informações:
- Processo clássico: 504 dias de acompanhamento;
- Processo de contagem: início do acompanhamento no 4301º dia e fim no
4805º dia do estudo (504 dias do processo clássico).
- Status: É censurado no seu último dia de acompanhamento.
Análise exploratória e descritiva
Para conhecer o perfil dos pacientes, bem como realizar uma análise exploratória e descritiva dos dados, abaixo foram selecionados alguns pontos importantes.
Selecione a variável desejada 🔽
Tempo
Min. 1st Qu. Median Mean 3rd Qu. Max.
16.0 290.0 852.0 938.2 1348.0 3228.0
Idade
Min. 1st Qu. Median Mean 3rd Qu. Max.
20.00 30.00 35.00 36.55 43.00 68.00
Frequência da escolaridade
| Escolaridade | Qtd. | |
|---|---|---|
| Sem escolaridade | 0 | 59 |
| Ensino fundamental | 1 | 44 |
| Ensino médio | 2 | 55 |
| Ensino superior | 3 | 24 |
| Não informado | NA | 11 |
| Total | 193 |
Frequência dos tratamentos
| Tratamentos | Qtd. | |
|---|---|---|
| Nenhum | 0 | 44 |
| Mono | 1 | 100 |
| Combinada | 2 | 35 |
| Potente | 3 | 14 |
| Total | 193 |
Número de eventos e censuras observadas
| Status | Qtd. | |
|---|---|---|
| Censura | 0 | 103 |
| Óbito | 1 | 90 |
| Total | 193 |
Número de pacientes por escolaridade e por sexo
| Escolaridade | Feminino | Masculino | |
|---|---|---|---|
| Sem escolaridade | 0 | 24 | 35 |
| Ensino fundamental | 1 | 11 | 33 |
| Ensino médio | 2 | 12 | 43 |
| Ensino superior | 3 | 1 | 23 |
| Não informado | NA | 1 | 10 |
| Total | 49 | 144 |
Representação gráfica
Distribuição das idades dos pacientes por gênero
Estimativas de Sobrevivência
Estimativas de Kaplan-Meier
Estimativas de Nelson-Aalen
Com os gráficos acima é possível notar que as estimativas de Kaplan-Meier e Nelson Aalen não apresentam uma grande diferença. Em ambos os casos, para períodos de até 1.000 dias, a probabilidade de sobrevivência se mantém acima de 50%. É perceptível também que, entre 2.000 e 2.700 dias, a probabilidade de sobrevivência parece passar por uma estagnação, tendo 42,23% de sobrevivência. No entanto quando expandimos o horizonte de dias, para uma quantidade maior que 2.700, as probabilidades de sobrevivência caem drasticamente, sendo inferior a 35%.
| Kaplan-Meier | Nelson Aalen | |
|---|---|---|
| Tempo Médio | 1603,062 | 1607,757 |
| Tempo Mediano | 1247 | 1247 |
Com relação aos tempos médio e tempos medianos, é possível notar que há uma diferença apenas entre o tempo médio, com as estimativas de Kaplan-Meier apresentando uma quantidade de dias inferior à de Nelson Aalen, sendo 1603,062 e 1607,757 dias, respectivamente.